SPSS 数据准备 4 – 指定缺失值

By Ruben Geert van den Berg under Data Preparation

4. 用户缺失值 (User Missing Values) 的存在

(概述和数据文件可以在这里找到)

用户缺失值是我们想要从分析中排除的值。我们通过在 SPSS 中将(范围)值指定为“缺失”来实现这一点。对于有序变量 (Ordinal Variables),我们通常排除诸如“不知道”或“不适用”之类的答案。对于度量变量 (Metric Variables),我们排除不合理的值,通常是非常高或非常低的值。

那么,我们如何知道一个变量是否包含任何需要指定为缺失的值呢?对于有序变量,我们运行带有条形图的频数表 (Frequency Tables with Bar Charts);对于度量变量,我们运行直方图 (Histograms)。让我们看一些例子。

SPSS 频数表与条形图语法 (SPSS Frequency Table with Bar Chart Syntax)

我们首先看一下 q2。由于这是一个有序变量,我们将使用下面的语法生成其频数表和条形图。

***1. 在表格中显示值和值标签 (Value Labels).
**
set tnumbers both.

***2. 对 q2 运行频数表和条形图.
**
frequencies q2/barchart.

结果

SPSS 频数表中的用户缺失值

首先,请注意,较高的值对应于对酒店设施更为积极的态度。然而,6(“没有答案”)并不比 5(“非常好”)更积极。因此,我们通过运行 missing values q2 (6) 将其指定为缺失值。如果我们现在重新运行条形图,我们将看到“没有答案”已按照预期从条形图中排除。

SPSS 直方图语法 (SPSS Histogram Syntax)

现在,我们将检查是否需要为 rprice 指定任何用户缺失值。由于它是一个度量变量,我们将通过运行 frequencies rprice/histogram 来检查其直方图。结果如下所示,看起来非常奇怪;似乎有些人为他们的房间支付了 999,999 欧元。另请注意,此时的平均房价似乎是 3400 欧元。

SPSS 直方图中的用户缺失值

这里的问题是 999999 可能是一个代码,表示房价未知,而不是 999,999 欧元。因此,我们将通过运行 missing values rprice (999999) 将其指定为缺失值。如果我们现在重新运行直方图,它就变得有意义了,并报告平均房价约为 80 欧元。

5. 每个变量的缺失值

(概述和数据文件可以在这里找到)

我们之前建议为所有分类变量运行带有条形图的频数表,并为所有度量变量运行直方图。我们这样做是为了检查是否需要指定任何用户缺失值。完成此操作后,我们检查每个变量的缺失值数量(无论是用户缺失值还是系统缺失值 (System Missing))。具有许多缺失值的变量通常是不受欢迎的,有时会被删除或从分析中排除。

例如,让我们检查 q3。由于它是一个有序变量,我们将运行频数表和条形图,使用 frequencies q3/barchart

结果

SPSS 频数表中的系统缺失值

请注意,所有值中有 96.5% 是系统缺失值。我们只有很少的实际答案,我们可以考虑完全删除此变量。